#AI Safety

21 articles

论文综述——以省计算、鲁棒性与可验证性为轴推进的 LLM/ML 研究

解读 2026-05-11〜2026-05-13 期间发布的最新论文，聚焦长文推理的验证、对抗鲁棒性、可视理解的高效化与推理偏差。以在省计算与安全性之间实现兼顾的设计为主线。

论文回顾——合成数据与推理的“评估·安全”

在截至2026-05-11的最近1周内受到关注的，跨越3篇以上新论文的综述，这些论文涉及合成数据生成、推理评估与安全性。

论文回顾 - AI 代理的自主性与计算效率优化

本文解读2026年5月最新AI研究，涵盖AI代理自主执行、计算效率最大化的分词技术，以及网络广告带来的隐私风险。

论文综述 - 生成AI“稳健化”和“评估”的最新动向

对近期公开的4篇论文进行横向综述。以稳健的评估设计、纳入对抗性与不确定性的训练、对智能体的安全性验证，以及可承受实际运行的模型改进为主线进行整理。

扩展论文综述 - 从机器人到药物发现：新的“稳健性”浪潮

截至2026-05-01，基于过去数天至1周的最新论文，横向解读机器人稳健化、科学验证、意义评估、多模态鲁棒性等共同趋势。

月度论文总结 - 可审计的代理智能

4月研究重心从代理"性能"转向"运维、验证、审计"。安全案例外部评审、无监督异常监控、沙箱形式验证为核心。药物发现、机器人、医疗领域物理一致性和长期执行基础也取得进展。

论文综述 - LLM智能体的“经验压缩”与“安全的运行”

以最新arXiv的3篇LLM智能体相关论文为主线，梳理实现经验压缩以支持长期运行的框架，以及面向人与/或环境的安全评估与验证的研究趋势。

论文综述 - 物理·医疗AI的深化与LLM行为解析

解读三篇最新论文。探讨物理学AI的法则发现、医疗AI的多模态基础模型，以及LLM的“工具过载”现象。分析AI如何助力科学发现和临床预测，并带来人机协作的新挑战。

论文综述 - AI加速科学发现与智能体技术深化

本文精选2026年4月18日至20日的最新论文，解读AI加速科学研究、提升LLM推理能力及确保AI安全性的三大主题。

论文综述 - 生成式AI时代的安全、评估与效率

截至2026-04-17，调研了近期开源/新发布的AI论文3篇。聚焦安全评估、推理中的性能提升以及学习与制度设计，并阐释通用指标设计的重要性。

论文综述——代理（Agent）时代的AI安全与攻击抗性

截至2026-04-15精选3篇与近期相关的论文（代理攻击、定位、评估框架）。聚焦威胁模型与防御的实验设计，并梳理实际运用中的要点。

论文综述——面向代理时代的安全性与鲁棒性

聚焦代理被滥用、安全性评估与鲁棒化，横跨3篇以上最新相关论文进行综述。梳理面向社会落地的关键设计原理与局限。